知识图(kgs)已被证明是构建数据的可靠方法。他们可以提供有关文化遗产收藏的丰富情境信息。但是,文化遗产库库远非完整。他们通常会缺少重要的属性,例如地理位置,尤其是对于雕塑,移动或室内实体,例如绘画。在本文中,我们首先提出了一个框架,用于从各种数据源及其连接的多跳知识中汲取有关有形文化遗产实体的知识。其次,我们提出了一个多视图学习模型,用于估计给定的文化遗产实体之间的相对距离,该模型基于实体的地理和知识联系。
translated by 谷歌翻译
计算能力和大型培训数据集的可用性增加,机器学习的成功助长了。假设它充分代表了在测试时遇到的数据,则使用培训数据来学习新模型或更新现有模型。这种假设受到中毒威胁的挑战,这种攻击会操纵训练数据,以损害模型在测试时的表现。尽管中毒已被认为是行业应用中的相关威胁,到目前为止,已经提出了各种不同的攻击和防御措施,但对该领域的完整系统化和批判性审查仍然缺失。在这项调查中,我们在机器学习中提供了中毒攻击和防御措施的全面系统化,审查了过去15年中该领域发表的100多篇论文。我们首先对当前的威胁模型和攻击进行分类,然后相应地组织现有防御。虽然我们主要关注计算机视觉应用程序,但我们认为我们的系统化还包括其他数据模式的最新攻击和防御。最后,我们讨论了中毒研究的现有资源,并阐明了当前的局限性和该研究领域的开放研究问题。
translated by 谷歌翻译
后门攻击在训练期间注入中毒样本,目的是迫使机器学习模型在测试时间呈现特定触发时输出攻击者所选的类。虽然在各种环境中展示了后门攻击和针对不同的模型,但影响其有效性的因素仍然不太了解。在这项工作中,我们提供了一个统一的框架,以研究增量学习和影响功能的镜头下的后门学习过程。我们表明,后门攻击的有效性取决于:(i)由普通参数控制的学习算法的复杂性; (ii)注入训练集的后门样品的一部分; (iii)后门触发的大小和可见性。这些因素会影响模型学会与目标类别相关联的速度触发器的存在的速度。我们的分析推出了封路计空间中的区域的有趣存在,其中清洁试验样品的准确性仍然很高,而后门攻击无效,从而提示改善现有防御的新标准。
translated by 谷歌翻译
Synthetic data generation has recently gained widespread attention as a more reliable alternative to traditional data anonymization. The involved methods are originally developed for image synthesis. Hence, their application to the typically tabular and relational datasets from healthcare, finance and other industries is non-trivial. While substantial research has been devoted to the generation of realistic tabular datasets, the study of synthetic relational databases is still in its infancy. In this paper, we combine the variational autoencoder framework with graph neural networks to generate realistic synthetic relational databases. We then apply the obtained method to two publicly available databases in computational experiments. The results indicate that real databases' structures are accurately preserved in the resulting synthetic datasets, even for large datasets with advanced data types.
translated by 谷歌翻译
Quantifying which neurons are important with respect to the classification decision of a trained neural network is essential for understanding their inner workings. Previous work primarily attributed importance to individual neurons. In this work, we study which groups of neurons contain synergistic or redundant information using a multivariate mutual information method called the O-information. We observe the first layer is dominated by redundancy suggesting general shared features (i.e. detecting edges) while the last layer is dominated by synergy indicating local class-specific features (i.e. concepts). Finally, we show the O-information can be used for multi-neuron importance. This can be demonstrated by re-training a synergistic sub-network, which results in a minimal change in performance. These results suggest our method can be used for pruning and unsupervised representation learning.
translated by 谷歌翻译
临床数据通常由于其高度机密性而无法自由分发,这阻碍了医疗保健领域的机器学习的发展。缓解此问题的一种方法是使用生成对抗网络(GAN)生成现实的合成数据集。然而,已知甘恩会遭受模式崩溃的困扰,从而产生低脱水量的输出。在本文中,我们扩展了经典的GAN设置,并具有外部内存,以重播真实样品的功能。使用抗逆转录病毒治疗作为人类免疫缺陷病毒(艾滋病毒的ART)作为案例研究,我们表明我们的扩展设置增加了收敛性,更重要的是,它有效地捕获了现实世界中临床数据常见的严重类别不平衡分布。
translated by 谷歌翻译
血管内操作中的自主机器人有可能安全可靠地浏览循环系统,同时降低对人体错误的敏感性。但是,训练机器人的过程涉及许多挑战,例如由于机器学习算法的效率低下而导致的长期培训持续时间以及导管与血管内幻影之间的相互作用引起的安全问题。物理模拟器已在血管内手术的背景下使用,但通常用于员工培训,通常不符合自主插管目标。此外,大多数当前的模拟器都是封闭消息,它阻碍了安全可靠的自主系统的协作开发。在这项工作中,我们介绍了Cathsim,Cathsim是一种开源模拟环境,可加快用于自主内血管内导航的机器学习算法的开发。我们首先使用最先进的血管内机器人模拟高保真导管和主动脉。然后,我们在模拟环境中提供了导管和主动脉之间实时力传感的能力。我们通过使用两种流行的强化学习算法,近端策略优化(PPO)和软参与者(SAC)在两个主要动脉内执行两个不同的导管插入任务来验证我们的模拟器。实验结果表明,使用我们的开源模拟器,我们可以成功训练增强型学习剂以执行不同的自主插管任务。
translated by 谷歌翻译
已经证明,深度神经网络的表现优于传统机器学习。但是,深网缺乏普遍性,也就是说,它们的性能不如由于域移动而从不同分布中绘制的新(测试)集中的表现。为了解决这一已知问题,已经提出了几种转移学习方法,其中训练有素的模型的知识被转移到另一个转移中,以通过不同的数据提高性能。但是,这些方法中的大多数都需要额外的培训步骤,或者它们遭受灾难性的遗忘,而训练有素的模型已经覆盖了以前学习的知识。我们采用使用网络聚合的新型转移学习方法来解决这两个问题。我们在统一框架中与聚合网络一起训练数据集特定网络。损失函数包括两个主要组成部分:特定于任务的损失(例如跨凝性)和聚合损失。提出的聚合损失使我们的模型可以了解如何通过聚合操作员聚集经过训练的深网参数。我们证明了所提出的方法在测试时间学习模型聚集,而无需进一步的训练步骤,从而减少了转移学习的负担为简单的算术操作。提出的方法达到了可比的性能W.R.T.基线。此外,如果聚合操作员有逆,我们将证明我们的模型还可以固有地允许选择性遗忘,即,聚合模型可以忘记训练它的数据集之一,并保留其他信息。
translated by 谷歌翻译
在这项工作中,我们分析了两个卫星之间的相对姿势初始化问题:一个追逐者和一个不合作目标。该分析针对两种基于单眼摄像头系统的近距离方法:Sharma-ventura-d'amico(SVD)方法和Silhouette匹配方法。两种方法均基于对目标几何形状的先验知识,但是不需要基准标记或先验范围的测量或状态信息。测试是使用2U立方体模型进行的,该目标是连接到机动旋转阶段的目标,以模拟其相对于追赶者摄像机的相对运动。运动捕获系统用作参考仪器,该工具提供了两个模型之间的基准相对运动,并允许评估所分析的初始化算法的性能。
translated by 谷歌翻译
这两个合成数据集包括3,910名急性低血压患者的生命体征,实验室测试结果,施用流体荧光剂和血管加压剂,并在重症监护病房(ICU)中为2,164名败血症患者。使用先前发布的包含和排除标准建立患者群组,并使用生成的对抗网络(GANS)和MIMIC-III临床数据库创建数据。与这些数据的释放相关的身份公开的风险估计非常低(0.045%)。将数据集作为健康健身房的一部分发布,该项目旨在公开分布用于开发机器学习算法的合成纵向健康数据(特别关注离线强化学习)和教育目的。
translated by 谷歌翻译